偏度 (Skewness) – 是什么以及为什么?

作者:Ruben Geert van den Berg,出自 Statistics A-Z

偏度(Skewness)是一个数值,用于衡量变量分布的不对称程度。

  • 正(右)偏度示例
  • 负(左)偏度示例
  • 总体偏度 – 公式和计算
  • 样本偏度 – 公式和计算
  • SPSS 中的偏度
  • 偏度 – 对数据分析的影响

正(右)偏度示例

一位科学家让 1000 人完成了一些心理测试。对于测试 5,测试分数的偏度 = 2.0。这些分数的直方图如下所示。

正偏态分布

直方图显示了一个非常不对称的频率分布。大多数人的得分都在 20 分或以下,但右尾延伸到 90 左右。这种分布是右偏的。 如果我们沿着 x 轴向右移动,我们会从 0 到 20 到 40 分等等。因此,在图的右侧,分数变得更加正向。因此,偏度是偏度,这意味着偏度 > 0。第一个示例的偏度 = 2.0,如图右上角所示。这些分数是强烈正偏的。

负(左)偏度示例

另一个变量——测试 2 的分数——结果显示偏度 = -1.0。它们的直方图如下所示。

负偏态分布

大部分分数在 60 到 100 左右。但是,左尾被拉伸了一些。因此,这种分布是左偏的。 向左看,向左看。如果我们向左沿着 x 轴移动,我们会朝着更负的分数移动。这就是为什么偏度是偏度。事实上,这些分数的偏度 = -1.0。它们的分布是左偏的。然而,它比第一个示例(偏度 = 2.0)的偏度小,或者说更对称。

对称分布意味着零偏度

最后,对称分布的偏度 = 0。测试 3 的分数——偏度 = 0.1——接近这一点。

对称分布

现在,观察到的分布很少是精确地对称的。这主要见于一些理论抽样分布。一些例子是:

这些分布都是完全对称的,因此偏度为 0.000…

总体偏度 – 公式和计算

如果您想计算一个或多个变量的偏度,只需将计算交给一些软件即可。但是——为了完整起见——我仍然会列出公式。 如果您的数据包含整个总体,则将总体偏度计算为: \[Population\;skewness = \Sigma\biggl(\frac{X_i - \mu}{\sigma}\biggr)^3\cdot\frac{1}{N}\] 其中

  • \(X_i\) 是每个单独的分数;
  • \(\) 是总体均值;
  • \(\) 是总体标准差,以及
  • \(N\) 是总体大小。

有关使用此公式的示例计算,请参见此 Google 表格(如下所示)。

总体偏度计算示例 Google 表格

它还显示了如何通过使用 =SKEW.P(…) 直接获得总体偏度,其中“.P”表示“总体(population)”。这证实了我们手动计算的结果。遗憾的是,SPSSJASP 都不计算总体偏度:两者都仅限于样本偏度。

样本偏度 – 公式和计算

如果您的数据包含来自某个总体的简单随机样本,请使用: \[Sample\;skewness = \frac{N\cdot\Sigma(X_i - \overline{X})^3}{S^3(N - 1)(N - 2)}\] 其中

  • \(X_i\) 是每个单独的分数;
  • \(\) 是样本均值;
  • \(S\) 是样本标准差,以及
  • \(N\) 是样本大小。

示例计算显示在此 Google 表格中(如下所示)。

样本偏度计算示例 Google 表格

获得样本偏度的一个更简单的选项是使用 =SKEW(…),它证实了我们手动计算的结果。

SPSS 中的偏度

首先,SPSS 中的“偏度(skewness)”始终指的是样本偏度:它悄悄地假设您的数据包含一个样本而不是整个总体。有很多选择可以获得它。我最喜欢的是通过 MEANS,因为语法和输出干净而简单。以下屏幕截图将指导您完成。

SPSS 偏度 – 通过均值菜单 SPSS 偏度 – 通过均值对话框

语法可以像 means v1 to v5 /cells skew. 一样简单。 一个非常完整的表——包括均值、标准差、中位数等——可以通过 means v1 to v5 /cells count min max mean median stddev skew kurt. 运行。结果如下所示。

SPSS 输出表中的偏度

偏度 – 对数据分析的影响

许多分析——ANOVA (方差分析)t 检验回归等——都需要正态性假设:变量在总体中应呈正态分布。正态分布的偏度为 0。因此,在某些样本数据中观察到明显的偏度表明正态性假设被违反。

对于大样本量——比如 N > 20 或 25 左右——这种违反正态性的情况不成问题。在这种情况下,大多数检验对于这种违反是稳健的。这是由于中心极限定理。简而言之,对于样本量,偏度对于统计检验不是真正的问题。然而,偏度通常与大的标准差相关联。这些可能导致大的标准误差和低的统计功效。因此,明显的偏度可能会降低拒绝某个零假设以证明某种效果的可能性。在这种情况下,非参数检验可能是一个更明智的选择,因为它可能具有更大的功效。

违反正态性确实会对**_小_样本量**(比如 N < 20 左右)构成真正的威胁。对于小样本量,许多检验对于违反正态性假设稳健。解决方案——再一次——是使用非参数检验,因为这些检验不需要正态性。

最后但并非最不重要的一点是,没有任何统计检验可以检验总体偏度是否 = 0。检验这一点的间接方法是正态性检验,例如:

然而,当真正需要正态性时——对于小样本量——此类检验的功效较低:即使偏离正态性严重,它们也可能无法达到统计显著性。因此,它们主要为您提供一种虚假的安全感。

我想大概就是这些了。如果您有任何意见——无论是正面的还是负面的——请在下面发表评论。我们确实喜欢进行一些讨论。

感谢您的阅读!